Java Quartz 作业持久化

java - 由于不可序列化的对象，Spark 作业失败

我正在运行一个spark作业来为我的HBase数据存储生成HFiles。它曾经在我的Cloudera集群上运行良好，但是当我们切换到EMR集群时，它失败并显示以下堆栈跟踪:Serializationstack:-objectnotserializable(class:org.apache.hadoop.hbase.io.ImmutableBytesWritable,value:5031363132373033345f493635383431353835);notretryingSerializationstack:-objectnotserializable(class:org.apa

hadoop - crontab 作业未执行

我在centOS系统上安装了hadoop。我有一个shell脚本，它将在某个特定时间文件夹位置生成的所有HDFS小文件合并到hdfs另一个位置的一个文件中。调用时，shell工作正常。然后我将shell作为cron作业在每天凌晨01:30运行。我输入了crontab-e并粘贴了这个:301***/home/hadoop/tmp/cron-merge-files.sh>/home/hadoop/tmp/cron-merge-files.txt但是合并操作并没有发生。我在/var/log/cron文件中看到该条目在凌晨01:30出现，但我看不到这些文件在hdfs中合并。当我简单地执行she

crontab hadoop section cron-merge-files cron hdfs

hadoop - Hadoop 2.x 上的应用程序(作业)列表为空

我在macOSSierra(Darwin内核版本16.7.0)上安装了Hadoop2.8.1，它工作正常，除了应用程序/任务跟踪。1)一开始，我以为是资源管理器网页界面的问题。所以:我已将yarn-site.xml模板复制到etc/yarn-site.xml文件，但没有帮助。我已经尝试更改默认的'dr.谁是资源管理器上我的Hadoop用户的用户(http://localhost:18088/cluster/apps/RUNNING?user.name=myUser)，但这也没有帮助。2)即使在命令行上我也无法跟踪我的应用程序(工作):yarnapplication-list总是返回空的

hadoop section code localhost hadoop-yarn resourcemanager

Hadoop - 当有 Spark 作业正在运行时，Sqoop 作业卡在已接受状态

目前我有一个始终需要运行的spark作业(java)。它不需要太多资源。但是，每当我运行sqoop作业(MapReduce)时，该作业都会卡在已接受状态:WAITING分配、启动AM容器并向RM注册。我检查了Ambari，用于调度的spark配置是公平的。为了进行测试，我尝试运行2个相同的spark作业，但没有出现任何问题(两者的状态均为RUNNING)。应该有足够的内核和内存来运行mapreduce作业。Spark提交命令:/usr/hdp/current/spark-client/bin/spark-submit\--classcom.some.App\--masteryarn-c

Hadoop Spark section sqoop apache-spark mapreduce hadoop-yarn

hadoop 集群未运行 map reduce 作业 - 调度程序问题

(这是对我之前就此事提出的问题进行的讨论的后续行动)我按照these设置了一个小型Hadoop集群说明，但使用Hadoop版本2.7.4。集群似乎工作正常，但我无法运行mapreduce作业。特别是，在尝试以下操作时$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jarrandomwriteroutdentercodehere作业打印17/11/2716:35:21INFOclient.RMProxy:ConnectingtoResourceManageratec2-yyy.eu-central-1

hadoop reduce gt lt description mapreduce hadoop2

hadoop - 如何清除 Hadoop 作业历史记录

我使用的是标准Apache发行版附带的HadoopMap/Reduce管理UI。随着时间的推移，已执行的作业列表变得越来越大。如何从历史列表中删除旧作业？最佳答案 Hadoop作业执行有生命周期，解释here工作状态流正在运行->已完成->已退休我们可以使用一些重要的配置来控制作业保留。mapred.jobtracker.completeuserjobs.maximum:NumberofjobstokeepinmemoryafterRunningstate.Tryconfiguretolessvalue...mapred.jobt

hadoop section jobtracker interval

hadoop - Hadoop中使用的jar文件重新编译后是否需要停止所有作业

我的问题是假设我正在对MapReduce过程中使用的一个jar文件进行更改，如果我想重新编译这个jar并使更新后的jar工作，我是否必须停止所有hadoop首先服务，然后重新编译并重新启动所有服务？如果是，请解释。最佳答案不，我经常这样做。只需重新编译jar并运行新作业即可。关于hadoop-Hadoop中使用的jar文件重新编译后是否需要停止所有作业，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.c

hadoop section jar stackoverflow compilation

java - 有没有办法强制 hadoop 作业查看下划线文件夹？

我必须处理文件夹中以“_”(下划线)开头的一堆文件。有没有办法强制hadoop查看这些文件夹？我需要编写自己的FileInputFormat吗？最佳答案最简单的方法可能是使用例如FileSystem.globStatus自行构建输入文件列表，然后使用FileInputFormat.addInputPath手动将它们添加到作业中。FileSystem.globStatus默认不过滤隐藏文件。关于java-有没有办法强制hadoop作业查看下划线文件夹？，我们在StackOverflo

下划 hadoop section code java hdfs

java - 如何将 Set<List<Set<Integer>>> 传递给 hadoop map reduce 作业

我需要向map/reduce(hadoop实现)传递一个类型的参数Set>>对于hadoop类JobConf，我可以使用setInt、setFlot、setString、ecc，但如果我想设置“一个集合”或一个列表，是否可行？怎么办？最佳答案我没有找到任何通过“setter”方法来做到这一点的方法。但是，您可以将此Collection写入文件，然后将此文件添加到DistributedCache并从映射器/缩减器的配置中加载它。关于java-如何将Set>>传递给hadoopmapr

amp Set section hadoop stackoverflow java mapreduce

java - 如何为从配置单元 jdbc 查询启动的 mr 作业指定额外的 jar？

我正在尝试通过使用avro存储格式的jdbc查询一个配置单元表，但我在查询产生的mr作业中收到一个类未找到错误。奇怪的是，我可以从配置单元shell运行查询而不会发生异常。我可以运行一个不生成mapreduce作业的查询(select*fromtablelimit10)并且它工作正常。2014-03-1210:23:34,040WARN[main]org.apache.hadoop.mapred.YarnChild:Exceptionrunningchild:java.io.IOException:java.lang.reflect.InvocationTargetExceptiona

配置单何为 java apache hadoop jdbc hive avro